PythonでUnicodeエスケープシーケンスをUnicodeキャラクタに変換する
\u30d5\u30a1\u30a4\u30eb\u30d5\u30a1\u30a4\u30eb
こんな文字列を見かけることありませんか?これは、Unicodeのエスケープシーケンス形式です。¥uによってUnicodeエスケープを認識し、その後に続くASCII文字4文字の16進数がUnicodeの1文字を表しています。
Unicodeキャラクタを表示する
パッとみて何が書いてあるか分かりませんので、簡単に確認する方法をご紹介します。Pythonコマンドです。
print uのあとにUnicodeエスケープシーケンスを記述すればUnicodeキャラクタになって返ってきます。
$ python Python 2.7.1 (r271:86832, Jun 25 2011, 05:09:01) [GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2335.15.00)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> print u'\u30d5\u30a1\u30a4\u30eb\u30b5\u30a4\u30ba\u304c\u5927\u304d\u3044' ファイルサイズが大きい
「ファイルサイズが大きい」と読める文字が表示されました。
まとめ
文字の表現方法を理解しよう!